ภาพรวมและภูมิทัศน์การพัฒนาสถาปัตยกรรม
เราเปลี่ยนผ่านจากความสำเร็จเบื้องต้นของ AlexNet สู่ยุคของเครือข่ายประสาทเทียมแบบลึกมาก เครือข่ายประสาทเชิงพีชคณิต (CNNs). การเปลี่ยนแปลงนี้จำเป็นต้องมีนวัตกรรมทางสถาปัตยกรรมอย่างลึกซึ้งเพื่อจัดการกับความลึกสุดขีดในขณะที่ยังคงเสถียรภาพในการฝึกอบรม เราจะวิเคราะห์สถาปัตยกรรมสำคัญสามแบบ—VGG , GoogLeNet (Inception) และ ResNet—เพื่อเข้าใจว่าแต่ละสถาปัตยกรรมได้แก้ไขประเด็นต่างๆ ที่เกี่ยวข้องกับการขยายขนาดอย่างไร ซึ่งเป็นพื้นฐานสำคัญสำหรับความเข้าใจโมเดลอย่างแม่นยำในบทเรียนต่อไป
1. ความเรียบง่ายทางโครงสร้าง: VGG
VGG ได้แนะนำแนวทางการเพิ่มความลึกโดยใช้ขนาดเคอร์เนลที่เล็กและสม่ำเสมออย่างมาก (โดยเฉพาะ ฟิลเตอร์เชิงพีชคณิต 3x3 ที่ซ้อนกัน) ถึงแม้ว่าจะใช้ทรัพยากรในการคำนวณสูง แต่ความสม่ำเสมอทางโครงสร้างของมันได้พิสูจน์ว่าความลึกที่แท้จริง ซึ่งเกิดจากการเปลี่ยนแปลงสถาปัตยกรรมน้อยที่สุด เป็นปัจจัยหลักที่ทำให้ประสิทธิภาพดีขึ้น และยืนยันความสำคัญของสนามรับรู้ที่เล็ก
2. ประสิทธิภาพการคำนวณ: GoogLeNet (Inception)
GoogLeNet ตอบโต้ต้นทุนการคำนวณสูงของ VGG โดยให้ความสำคัญกับประสิทธิภาพและการดึงลักษณะเฉพาะหลายระดับ นวัตกรรมหลักคือ โมดูล Inception ซึ่งดำเนินการคำนวณเชิงพีชคณิตแบบขนาน (1x1, 3x3, 5x5) และการรวมกลุ่ม อย่างสำคัญ คือ มันใช้ การคำนวณเชิงพีชคณิต 1x1 เป็น จุดแคบ เพื่อลดจำนวนพารามิเตอร์และซับซ้อนของการคำนวณอย่างมาก ก่อนการดำเนินการที่มีต้นทุนสูง
การเชื่อมข้ามเพิ่มพจน์เอกลักษณ์ ($+x$) เข้าไปในผลลัพธ์ ทำให้เกิดพจน์เพิ่มเติมในเส้นทางอนุพันธ์ ($\frac{\partial Loss}{\partial H} = \frac{\partial Loss}{\partial F} + 1$) พจน์นี้ทำให้มีเส้นทางโดยตรงสำหรับสัญญาณเกรเดียนต์ไหลกลับไปข้างหน้า รับประกันว่าพารามิเตอร์ด้านบนจะได้รับสัญญาณเกรเดียนต์ที่ไม่ใช่ศูนย์และใช้งานได้ ไม่ว่าจะเล็กเพียงใดก็ตามที่เกิดขึ้นผ่านฟังก์ชันผลต่าง $F(x)$